戴文渊不是那种严格遵循规则的人,喜欢「玩出花儿」——编程有各种规范,他常常不遵守,写出一些完全不遵循规律、但执行效率特别高的程序。第四范式的前一万行代码,是他自己写的,那时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑夜里,开始敲击键盘,那是他一天中最自如的时光。
从ACM世界冠军,到最年轻的百度高级科学家,到华为诺亚方舟实验室主任科学家,再到创办第四范式,他走过了很长的路,但他认定人工智能是一生的追求,“我在这件事情上得到内心的愉悦,我没有想过其他的事”。
以下是《人物》杂志对戴文渊的专访报道。
当你知道,鸟要往哪里飞
2018年的中国,平均每分钟有28名婴儿出生,在每天要发生的41000多次分娩中,每位女性都要面临一个重要问题,是顺产还是剖腹产?这不仅关系到她们要遭受的疼痛,甚至也关系到生命存续。而它也是一件往往在最后关头才被决定之事,是这个医学昌明时代,为数不多主要依靠医生经验来判断的事。
今年春天,长春一位妇产科医生找到了新方法,也许可以为缓解这种痛苦提供一种工具——医生在网上偶然看到一个人工智能平台,想试试看,能不能更精确地预测新生儿体重,来指导医生做判断。这个机器并不难操作,他把过往自己收集的所有孕妇体检的指标数据,以表格形式输入到机器里,很快得到答案——不用选择公式,没有复杂操作,机器自己完成了一切。
这种看不到过程的运算,可信吗?结果出来医生也觉得意外——所有案例的误差都精确在0.2公斤以内。这比起目前临床医学已达到的精确度,还要高。这个结果被写成一篇论文,最终在顶级医学会议上发表。
以上这一切,提供人工智能机器的公司第四范式,事先都不知情。医生通过他们官网上的试用入口,试用了这个名为AutoML(自动机器学习)的产品,完成了运算。
公司创始人戴文渊先生得知此事后的兴奋程度,甚至超过他们拿下银行的大订单。他还讲起了另一个相似的故事。某天朋友跟他讲起,偶然间看到别人使用他们的产品。那是一个「候鸟迁徙」的项目,机器被用来预测候鸟的飞行路径。当你知道,鸟要往哪里飞,又知道它们即将经过的地带会有污染或雾霾时,可以做一些干预措施,让它们尽量在安全地带飞行。
在这些故事里,戴文渊最看重的是这一个个具体的、活生生的人,他们没有太多AI基础,不会写代码,可能只会操作Excel表格,但可以通过基本的学习,用他们的工具来使用AI。「我认为这个代表我们真的改变了世界。」
人们坐在一个陌生的人工智能新工具面前,困惑、尝试,最终为自己所用,这与许多年前我们刚开始接触电脑时的过程,并无二致。
1991年,在苏州古城区读小学二年级的戴文渊,考了三次数学全班第一后,获得了加入计算机兴趣小组的资格。一周一次的上机时间极为宝贵,全部用来写程序,不能忍受一丝浪费。他打了个比喻:「比如你花了那么多钱去跟巴菲特吃一顿午餐,你一定会抓住所有时间向他请教问题,绝对不可能浪费时间跟他闲聊。」
10岁,他已经开始在机房电脑上写logo语言,家里书架上也有了C语言的书。在那之前,他父母让他去学特长,总是半途而废,书法坚持了1年,国际象棋也只坚持了1年,中国象棋最久,但他编着理由翘课,「混」了6年。只有计算机是他自己选的,迄今为止已经坚持了28年。
像是终于找到了某个人生的入口,年少时的自我发现与确认,此后不再改变。高一时他凭借竞赛获得保送大学资格,抱定心思只读计算机系,因此放弃了不能选专业的清华。后来在上海交大,他拿到了ACM国际大学生程序设计竞赛的世界冠军。
另一个关键节点是在香港科技大学的实验室里,他第一次知道什么是人工智能,并把它作为一生的追求。一开始是在论文上追逐它;后来离开学校到百度,在广告推荐系统上实践;再到华为诺亚方舟实验室,看看能在非互联网领域做到什么程度;再后来他发现,做一家公司可能是最好的方法,于是有了现在的第四范式。
「最重要的是,我在这件事情上得到内心的愉悦。我感兴趣,并且目标坚定,我没有想过其他的事。」一份为队友准备可乐的工作
采访进行前,凌晨1点多,戴文渊还在办公,早上5点又回复了微信。
我们好奇他怎么安排一天的工作——之前《人物》采访过一位女演员,她说会把最不想做的事情安排在早上,这样她每天都是越来越开心,都拥有一个愉悦的晚上。但戴文渊的回答是,「我已经不太记得自己喜欢做什么了。」一切都从逻辑出发,逻辑推出来该做什么就做什么,如机器运转,严丝合缝。
「逻辑」,合伙人陈雨强评价他时,也一直提到这个词。戴文渊曾是陈雨强大学的小导师,也是他在百度实习时的leader,他认为逻辑是自己从戴文渊那儿学到的最重要的东西。「比如形成一段描述,或者一个算法。他关心这里面本质的逻辑是什么;第二点就是,你怎么做,别人能听懂,别人能理解。」
这种极度理智,与戴文渊在ACM竞赛中受到的训练密不可分。
大学前他的性格截然相反,是紧张的、情绪化的。高二时他的计算机水平已经是江苏省顶尖,代表全省参加全国信息学竞赛。10年的准备,到了现场,第一试就开始紧张,第二试好一些,但一综合,排到了全国第23名。当时第18到22名都是同分并列,前20名进国家集训队,他失之交臂。
进国家队,代表中国参加世界信息学竞赛,是他中学时代的理想。他认为自己也具备这种实力。从10岁开始,他的世界里只有计算机和题目,花了大量时间做编程训练。比赛完,从北京回到家,他形容当时的心情:「就像奥运会,非常有实力竞争体操冠军的人,结果从平衡木上摔下来了。」
当时高中正好有一个保送清华的名额,但不能选专业,他不能接受不学计算机。刚好同一时间,上海交大的教授俞勇,寄了一张填了他名字的保送推荐表到戴文渊的学校。俞勇说,这张表不能给别人,如果戴文渊不要,那就自动作废。戴文渊接受了上交的邀请。
高中毕业前的5月,正是每年举办ACM竞赛的时间。戴文渊不需要高考,就在家通宵看比赛。那时的网络无法做视频直播,只有文字,只能打开一个网页,不停地刷新。那是上海交大第一次获得世界冠军。选手林晨曦,后来成了戴文渊的教练,再之后创办了现在知名的人工智能公司依图科技。
戴文渊的ACM之旅,开局并不算顺利。大一大二两次参赛,都没拿到好名次。大三备战时他开始琢磨,「怎么去做一个最正确的决定,怎么去非常理性地思考」——「你根本没有必要证明你比队友强。我前一年那支队,三个人都很强,都在努力证明我是这个队里最强的人,但我发现这个事儿其实一点意义都没有。只有这个队强才行,至于你比队友强还是弱,都不重要。」
那是一个关键答案。如果说之前他认为自己是最优秀的,那时候他开始接受,自己可能没那么厉害,「到了那个层面,全世界最好的几个人(在比),你会发现从个人能力上单拼是拼不过的。但是团队不是,还要想办法去赢。」
之后的事情就变得简单了。他和队友们住到一起,肩负起让一个「喝了可乐就能写出好代码」的队员随时能喝到可乐的工作,并和另一个队员一起看他根本不感兴趣的动漫,只为了与他们训练默契度,达成相互理解。他的目的不再是解出一道题,而是在这个比赛里夺冠。
那年的决赛,刚好在上海,开场第一个小时,他们已经被对手甩开。当时戴文渊跟队友说,「这后面4个小时,是我们最后的4个小时。比完了我们就退役了。我们不用想之前一个小时做了什么,只要把握最后4个小时,发挥我们这些年的全部积累,不留遗憾。」到第2个小时、第3个小时、第4个小时,他又重复了这番话。那时候三个人的心态已经非常平静。
比赛结束前一个小时,按照惯例封榜,不再实时更新成绩。他们当时是第四名。但在倒数第8分钟,他们又用看起来不可能的「暴力枚举」方法,解出了一道新题,成为全场解题最多的队伍,获得冠军。
结束后,三人筋疲力尽,瘫倒在房间里。戴文渊用这枚代表世界最高水平的奖杯,告别了三年的ACM竞赛史。更本质的问题
那时已是大三,同龄人都开始寻找人生方向。选择冷清还是火热,戴文渊也站在了小径分叉的路口。
他面临的第一个选择是确定研究方向。在他的描述里,AI当时是个「一点都不火」的专业,大家热捧的是图形学,做CG渲染,能去好莱坞。那AI是什么?一个被选剩下的专业。他只能跟人解释,有部科幻片叫《AI》。上海交大也没有人工智能领域的老师,戴文渊被送到了港科大,师从杨强教授。
港科大建在山上,实验室没有窗,手机也没信号,他关在里面,过得根本不知白天黑夜,又将信将疑,觉得在做一个所有人都做不出来的东西。
但教授杨强是坚信并热爱人工智能的「狂人」。学生们总开玩笑,说他们是《西游记》里的师徒,除了师父,其他人只觉得:「我靠,西天那么远,要不我回高老庄吧。」每次学生们蔫儿了,就被杨强「K一顿」,被「K」得多了,就会受到感染。「我发现这个人为什么几十年如一日坚持这样做事,这个事儿这么遥远,为什么你还……?这个目标怎么回事?你都不动摇。」时间一长,他们也就跟着信了。
戴文渊很快做出成绩,就算是隔了10年,打开他的谷歌学术页面,成绩单还是闪闪发亮——2007到2008的两年时间里,他一共发表了11篇论文,不少都是顶级学术会议论文,迁移学习(一种机器学习方法)领域单篇论文被引数位居全球第三。师弟陈雨强记得,当时这个成绩,不止在交大,在中国都很罕见。那时AI没有那么火,一年只接收100篇左右的文章,中国人当时也还不在AI圈子里。而戴文渊觉得,他的成绩得益于ACM竞赛的底子,那种做事的方式,和那种目标导向。
他获得了学术共同体的承认,但很快发现事情不太对。「我知道怎么去发顶会的论文,甚至知道怎么发让很多人引用的论文,但我发现一个问题——在这个领域里,没有东西是能用的。」AI是基于数据、再加上算法,才能得到结果,但当时大家只关注算法。「不是说算法没用,但如果你是在一个破烂的数据上比哪个算法更好,那算法就没有商业应用价值。所以我们才被人家耻笑说,你居然还是做AI的。」
要解决这个问题,只有一个方法,就是去工业界。他在心里做斗争:「那时候从学术界去工业界,是一件很丢脸的事。当时有个词儿叫『去工业界』。什么叫『去工业界』?就是你在学术界混不下去了,就去写代码。」但百度对他的诱惑在于,它是当时数据质量最好的公司之一,而且一定会落地,因为有商业化的需求。于是不再犹豫,他放弃博士学位,入职百度,成为最年轻的T10科学家,扎进火热的现实之中。
他在百度四年的工作,用一个词总结就是「点击率提升系统」。这个系统的目的是提升百度搜索的商业变现。点击率的提升,首先让商家满意,因为广告被点击了更多次;用户收到的也不再是不感兴趣的东西;百度就更满意了,因为百度按照点击率收费。这其中的关键在于机器学习技术,它把效率提升了8倍。
技术得到验证,戴文渊认为AI应该有更大的用武之地。他争取过很多次,愿意调到其他部门,去做推荐系统,去做视频、问答,甚至是做围棋。当然,马上被驳回了——百度是上市公司,每季度都有收入预期,而他就是那个扛预期的人,「一般每季度最后那个月,我就是全公司最忙的人之一。根本没时间思考别的,先把财报完成。」不久后,他决定从百度离开。
因为希望促进整个AI行业发展,所以离开,这个理由听起来太理想主义,显得遥远和隔膜。但实际上一切都有迹可循——2012年冬天,戴文渊还在百度任职,有人在微博上讨论Google和Facebook的区别,提到Facebook有一位科学家离职了,因为「他觉得自己的技能全用来算计广告点击率这事,太悲催了」。一位朋友艾特了戴文渊,他留下了一个「大哭」的表情,说「面壁去」。
陈雨强对戴文渊的理解是,他一直是一个「造问题的人」。他一直在挑战更本质的问题,更大的问题,那些没被解决、还不知道怎么去解决的问题。陈雨强记得一个细节,离开百度时戴文渊在琢磨,机器人的操作系统是什么,那是一个还没被定义过的问题,是超前的。不是因为他喜欢尝鲜,而是因为那是新的价值、重要的价值。
他们一起从学生时代走到创业,戴文渊想做的事,全都没人做过。「不是已经有了一个问题,谁提出了A算法,他再提出一个B算法。他不是,他会提出一个新问题。这也是比较痛苦的一点,我们没有谁可以抄,只有别人抄我们。」
闭着眼睛往下跳
2015年,一天陈雨强突然接到戴文渊的消息,邀请他创业。陈雨强当时在今日头条负责搭建最关键的推荐系统,听说他要走,张一鸣每天找他聊到深夜。
但陈雨强看重两点,一是戴文渊是个值得追随的leader,二是他要做的是一家纯粹的人工智能平台公司,让更多的企业和个人能够用上AI,心一横,「闭着眼睛往下跳」。另一位联合创始人胡时伟也是那时候加入的。他们当时互相调侃:「You jump, I jump.」
戴文渊决定创业的原因很简单——他看到了人工智能广阔的市场,以及最终明白他想做的事情,会在大公司受到多少限制。
离开百度后,他到了华为,想看看华为怎么服务企业。一次他为华为竞标,为某家银行搭建大数据平台。他发现就算这个平台建好了,数据都放在平台上了,它也并不能创造价值。他给银行做了几个AI应用,把小贷的营销效率提升了25倍,最后银行买了华为的大数据平台。而他做的人工智能应用,本质上只是一块「敲门砖」,他自嘲为「演员」。
客户当时也说,他们想买这个人工智能系统。戴文渊受到鼓励,回公司沟通,公司的结论是:这不是我们的产品,如果买大数据平台,我可以把这个系统送给你。这件事让他认清现状——彼时的华为主航道是「端、管、云」,他想做的事情在主航道之外,且无力改变。
就这样,一群怀有人工智能理想的年轻人,在深圳福田口岸的民租房里开始了第一步。开始为第一个客户服务时,他们只有两个正式员工,两个实习生。服务结束半年了,对方催发票,他们发现公司里没有熟悉开票流程的人。
创业第二年,刚站稳脚跟,戴文渊提出要做AutoML技术。这项技术的核心在于,在里面封装极其强大的算法,让机器可以自动建模。「这听上去有点天方夜谭,但是可以实现的。训练机器就像训练小狗那么简单,客户定义好目标,收集数据,给机器设定好行为和反馈,然后抽离出规律和算法。」他曾在接受采访时说。
这样一来,原来很多需要人工完成的工作,比如选模型、调整参数、处理原始数据,现在都不用了。人们只需要组织好数据,就可以交给AutoML。这大大降低了普通公司的门槛和成本。用戴文渊的话说,能熟练使用Excel的人,经过数个小时的培训,都可以使用AutoML。
这个门槛最低可以降到什么程度?就像我们提到的妇产科医生和候鸟迁徙一样,还有一对夫妻开的摄影工作室,自己做了一个AI客服。
AutoML做到今天,也并非一个顺理成章的故事。第四范式决定做AutoML时,它的发展速度不算快,有点儿像2005年,戴文渊在香港科大的实验室里边做边怀疑自己。但到2019年的今天,已经是陈雨强说的「黎明」了——AutoML已经是人工智能领域最炙手可热的技术之一。第四范式也已经是唯一一家被五大行投资的创业企业。去年底它的估值超过10亿美元,进入「独角兽」的行列。
在聊到理想的明天时,戴文渊回到了过去。他想起,在微软做出ExceL、Powerpoint、Word等办公软件之前,打字也是一个非常专业的工作,课堂展示用的还是胶片。在苏州读小学时,老师就在机房里让他们用一种更古老版本的WPS把文章打上去。那时世界上也只有很少人能完成这件事。他想做的事情,就像微软做的那样——怎么能让每篇文章的作者,都可以自己打字。「如果纵向对比,做AutoML要难得多,但如果放在历史上来看的话,当年做出Word,不也很难吗?」
他有时会想,如果有一天公司什么事都不用他来负责了,他就回去做科学家,专心研究AutoML。
他不是那种严格遵循规则的人,喜欢「玩出花儿」——编程有各种规范,他常常不遵守,写出一些完全不遵循规律、但执行效率特别高的程序,当然,这些代码别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写的,那时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑夜里,开始敲击键盘,那是他一天中最自如的时光。
今天,距离他埋头在香港研究人工智能、两年发表11篇论文的时候,已经过去10年了。这些年他进入工业界,之后又创业,论文的产量不高。今年算是一个高峰,他已经发表了3篇论文,Wenyuan Dai这个名字又重新出现在谷歌学术里,这些文章,都和他最关心的AutoML有关。 原标题:一个天才如何制造问题
来源 / 人物
(文章略有编辑)
第 四 范 式
领域:科技/传媒
第四范式成立于2014年9月,是一家人工智能技术与服务提供商,以"Empower AI Transformation and Inspire AI For Everyone"为企业愿景,依托于AutoML、迁移学习等技术与企业级人工智能PaaS平台,不断推动人工智能快速、规模化的产业落地。第四范式利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业AI创新变革。
红杉资本始终致力于帮助创业者成就基业长青的伟大公司,为成员企业带来丰富的全球资源和宝贵的历史经验。47 年来,红杉资本投资了众多创新企业和产业潮流的领导者。
红杉资本中国基金作为「创业者背后的创业者」,专注于科技/传媒、医疗健康、消费品/服务、工业科技四个方向的投资机遇。十四年来,红杉资本中国基金投资了超过 500 家具有鲜明技术特征、创新商业模式、具备高成长性和高发展潜力的企业。